词的内部结构分析

词的内部结构分析

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:2174
师大云端图书馆

【摘要】词法分析是自然语言处理中最基础、最关键的步骤。在中文信息处理领域,词法分析的一般做法是通过分词给词和短语划定边界,从而使汉语的后续处理过程跟英语等西方语言基本一致。然而,汉语中词与短语之间的界限比较模糊,许多情况下,某些语言单位就连语言学家也很难确定是语素、词还是短语。这导致实践中人工标注的分词语料存在严重的不一致性,而这种不一致性无疑会制约汉语的后续处理工作。分词语料的不一致性不仅体现在不同语料库间分词标准不同,而且同一语料库中的分词标准也存在不一致。此外,不同的自然语言处理应用对词的粒度大小也有不同的需求,单一的分词标准难以满足各种要求。因此,针对目前中文分词的不足和实际应用的需要,本文给出了一种与传统分词不同的词法分析选择,即分析词的内部结构。相比于传统的分词,分析词的内部结构能够同时获得词的边界和内部结构信息,它更加符合汉语词法与句法边界模糊的事实,解决了语料库标准不一致问题并满足了不同应用的需求。本文针对词的内部结构分析方法的研究,开展了以下几个方面的研究工作:首先,本文阐述了词内部结构分析详细的任务定义,并严格按照任务定义标注了PKU1998年1月的《人民日报》语料,将该语料的80%作为训练语料,剩余的20%作为测试语料进行研究。此外,由于还没有在PKU语料上进行词内部结构分析的相关研究,所以没有现成的评测工具可以使用。本文借鉴了句法分析的评测方法,设计了一套适合评测词的内部结构分析结果的方法。其次,提出了一种基于层叠CRF模型的词结构分析方法。该方法包括底层模型和高层模型两部分。底层模型是在识别词的内部结构之前,对汉字序列进行细粒度分词。高层模型是对经细粒度分词后的词序列使用CRF模型来识别词的内部结构。实验结果表明,该方法对词结构的识别取得了较高的准确率,总体性能达到了实用水平。最后,提出了一种利用扩展标记集来实现词结构分析的方法。核心思想是将词结构中的前缀和后缀作为特殊词位来识别,通过识别前后缀来识别词的内部结构。与基于层叠CRF模型的词结构分析方法相比,该方法克服了细粒度分词所带来的错误传递。实验证明,相比于基于层叠CRF模型的词结构分析结果,该方法进行词结构分析的整体性能有所提高。
【作者】方艳;
【导师】周国栋;李中国;
【作者基本信息】苏州大学,计算机应用技术,2014,硕士
【关键词】词法分析;中文分词;分词标准;内部结构;层叠CRF;

【参考文献】
[1]周必水,李骏.电子政务中的数据挖掘[J].计算机时代,2005,01:3-4+9.
[2]郑白雯.北部湾北部浮游生物生态学研究[D].厦门大学,海洋生物学,2014,硕士.
[3]董文瑶.武术功力运动员掌骨形态结构的CT图像分析[D].中北大学,民族传统体育学,2013,硕士.
[4]刘颖.北京市流动人口基本公共服务研究[D].吉林大学,社会医学与卫生事业管理,2013,硕士.
[5]范东升.台州市城市基础设施建设项目征地机制研究[D].浙江工业大学,项目管理,2012,硕士.
[6]刘丽萍.高校思想政治理论课情境兴趣研究[D].西南交通大学,马克思主义理论,2013,硕士.
[7]罗杰云.基于供应链数据仓库的OLAP数据挖掘[J].微机发展,2004,08:92-93+96.
[8]肖艳来.保留神经的广泛子宫切除术的盆腔解剖学基础[D].河北医科大学,人体解剖与组织胚胎学,2013,硕士.
[9]刘卓.十八世纪中国瓷绘西洋植物图像研究[D].首都师范大学,中国美术史,2013,硕士.
[10]金铃子.塔山煤矿综放面采空区瓦斯运移规律研究[D].辽宁工程技术大学,安全管理工程,2012,硕士.
[11]李惠.基于活动的居民购物出行方式选择模型[D].西南交通大学,交通运输规划与管理,2013,硕士.
[12]李陈.译者主体性对《红楼梦》中的模糊语翻译的影响[D].武汉理工大学,英语语言文学,2012,硕士.
[13]彭涌泉.宁夏自治区系统协调发展实证研究[D].华侨大学,数量经济学,2004,硕士.
[14]李奉芪.中美高技术产品贸易研究[D].吉林大学,国际贸易学,2013,硕士.
[15]周丽娟.同素材主谓结构和“主的谓”结构比较研究[D].宁波大学,汉语言文字学,2013,硕士.
[16]郝月.大学生心理韧性与职业成熟度的相关性研究[D].吉林大学,应用心理学,2014,硕士.
[17]林郁.拱支叉筒网壳稳定性分析与风压数值模拟[D].浙江大学,结构工程,2004,硕士.
[18]蔡凌.基于网络的图书营销攻略[D].安徽大学,出版,2013,硕士.
[19]安存国.微纳米石墨球的制备及其表征[D].山东大学,2011.
[20]孙帅.城中村改造过程中利益相关主体的博弈分析[D].华中师范大学,社会工作,2014,硕士.
[21]白洁玉.慢病毒介导SOX9基因转染骨髓间充质细胞的实验研究[D].山西医科大学,骨科学,2013,硕士.
[22]赵靓雯.社区养老中的政府职能探究[D].苏州大学,行政管理,2014,硕士.
[23]叶华香.扎龙湿地沉积物营养盐和重金属空间分异规律及潜在生态风险研究[D].哈尔滨师范大学,自然地理学,2014,博士.
[24]李国发,王艳仓,熊金良,马彦彦,李皓.地震波阻抗反演实验分析[J].石油地球物理勘探,2010,06:868-872+936+788.
[25]何桂霞.绿色木霉的筛选及秸秆的二次组合发酵[D].甘肃农业大学,动物营养与饲料科学,2013,硕士.
[26]杨夏.不同栽培基质对葡萄生长及果实品质的影响[D].浙江大学,果树学,2013,硕士.
[27]沈枫菊.视频监控中目标清晰化方法研究[D].沈阳理工大学,通信与信息系统,2012,硕士.
[28]肖广然.纳米MOS器件含时输运特性的研究[D].南京邮电大学,集成电路(专业学位),2013,硕士.
[29]陈为胜,李俊民.非线性时滞大系统自适应神经网络分散控制[J].控制与决策,2006,08:873-878.
[30]刘青.北京市基层民政执法存在问题及对策[D].中国社会科学院研究生院,法律,2014,硕士.
[31]陈超.二氧化钛与四氧化三锰纳米晶体生长控制及其功能特性研究[D].浙江大学,2014.
[32]赵文利.LF钢包精炼炉电极控制的研究与应用[D].东北大学,控制工程,2011,硕士.
[33]李高波.论我国公允价值应用规范体系及其完善——兼论公允价值计量准则引发的思考[J].财会学习,2014,04:34-38.
[34]刘梦.七芯光子晶体光纤结构设计与超模分析[D].燕山大学,检测技术与自动化装置,2013,硕士.
[35]张锡霖.半导体及其石墨烯复合物修饰TiO_2纳米管阵列与光催化应用[D].湖南大学,2013.
[36]白世敬.功能性腹泻脾虚证动物模型制作及评价方法研究[D].北京中医药大学,中医诊断学,2014,硕士.
[37]徐发光.我国优秀男子竞走运动员技术判罚影响因素与技术特点分析[D].内蒙古师范大学,体育教育(专业学位),2013,硕士.
[38]朱云生.基于元数据关联特征的分布式查询方法研究[D].华中科技大学,计算机系统结构,2013,硕士.
[39]史德锋,郭世明.基于数据仓库技术的机务段管理信息系统[J].现代电子技术,2003,02:44-45+51.
[40]张殿宝.高速环境下多输入多输出(MIMO)信道模型研究[D].北京邮电大学,电子与通信工程(专业学位),2013,硕士.
[41]胡智超.腾讯Q~+应用商店前端框架设计与实现及性能优化[D].哈尔滨工业大学,软件工程,2013,硕士.
[42]李晋云.环境侵权责任保险的实践探索与制度构建[D].甘肃政法学院,法律,2012,硕士.
[43]刘刚.基于人工免疫算法的CDN骨干网组播路由优化与仿真[D].山东大学,计算机系统结构,2013,硕士.
[44]王开典.不同品系天然橡胶特性的研究[D].海南大学,橡胶学,2014,硕士.
[45]范娟.应用LDPE膜被动采样技术监测分析辽河流域POP_S的污染状况[D].北京交通大学,2015.
[46]刘照玉.俄语广告语篇理解的认知研究[D].黑龙江大学,俄语语言文学,2013,硕士.
[47]尚明钰.大连空港物流基础设施建设资金融资方案研究[D].大连海事大学,物流工程,2012,硕士.
[48]李冠宇.400 mm热轧带钢粗轧立辊自动宽度控制系统研究[D].太原科技大学,机械设计及理论,2014,硕士.
[49]李智.股东大会决议瑕疵的非诉讼救济[D].北京交通大学,2014.
[50]赵明旺.相关扰动下连续系统的连续时间最小二乘辨识的数值实现[J].控制与决策,1997,04:345-348.

相关推荐
更多